草庐IT

Android sdkmanager 可用包

全部标签

Hadoop:可用数据节点:0(共 0 个,死 0 个)

每次我运行:hadoopdfsadmin-report我得到以下输出:ConfiguredCapacity:0(0KB)PresentCapacity:0(0KB)DFSRemaining:0(0KB)DFSUsed:0(0KB)DFSUsed%:�%Underreplicatedblocks:0Blockswithcorruptreplicas:0Missingblocks:0-------------------------------------------------Datanodesavailable:0(0total,0dead)我的dfs/文件夹中没有数据目录。此文件

Hadoop 高可用性。配置了自动故障转移,但备用 NN 在 NN 再次启动之前不会变为事件状态

我正在使用Hadoop2.6.0-cdh5.6.0。我已经配置了HA。我显示了事件(NN1)和备用名称节点(NN2)。现在,当我向事件名称节点(NN1)发出终止信号时,备用名称节点(NN2)不会变为事件状态,直到我再次启动NN1。再次启动NN1后,它处于待机状态,NN2处于事件状态。我没有配置“ha.zookeeper.session-timeout.ms”参数,所以我假设它默认为5秒。在检查事件和备用NN之前,我正在等待时间完成。我的核心站点.xmlfs.defaultFShdfs://mycluster/hadoop.proxyuser.mapred.groups*hadoop.p

hadoop - HDFS 空间分配(大小/已用/可用)

我阅读了一些引用资料,但我仍然无法弄清楚HDFS系统上可用于存储文件的基本总大小是如何确定的。如果我有一个运行HDFS服务的1TB磁盘,当我向其中添加文件时,dfs部分会自然地“增长”,还是默认情况下磁盘的一部分分配给DFS? 最佳答案 是的,随着文件的添加,HDFS的磁盘使用量会增长。默认情况下,Datanodes将尝试使用其存储目录dfs.datanode.data.dir中的所有可用空间。Datanode的配置容量是TotalStorageCapacity-ReservedStorageReservedStorage默认为0B

hadoop - Hadoop 的 HDFS 高可用性特性如何影响 CAP 定理?

根据我目前所读到的有关CAP定理的所有内容,没有分布式系统可以同时提供这三者:可用性、一致性和分区容错性。现在,Hadoop2.x引入了一项新功能,可以对其进行配置以消除hadoop集群所具有的单点故障(单个名称节点)。这样,集群就变得高度可用、一致且具有分区容错性。我对吗?或者我错过了什么?根据CAP的说法,如果系统试图提供所有这三个功能,它应该在延迟方面付出代价,新功能是否将这种延迟添加到集群中?还是Hadoop破解了CAP定理? 最佳答案 HDFS在多个相关故障的情况下不提供可用性(例如,具有相同HDFSblock的三个故障数

hadoop - 如果数据大小超过可用内存,是什么让 Spark 变快?

在我试图理解spark的任何地方,它都说它很快,因为它将数据保存在内存中,而不是mapreduce。让我们举个例子-我有一个5节点spark集群,每个节点有100GBRAM。假设我有500TB的数据来运行spark作业。现在spark可以保留的总数据是100*5=500GB。如果它可以在任何时间点仅在内存中保留最多500GB的数据,是什么让它快如闪电? 最佳答案 Spark并不神奇,也不能改变计算的基本原理。Spark使用内存作为渐进增强,对于无法保存的庞大数据集,将回退到磁盘I/O内存。在必须从磁盘扫描表的场景中,spark性能应

hadoop - hive hadoop 上可用的数据可视化工具

请推荐一些可以在Hive-Hadoop上工作的可视化工具。唯一的问题是,它应该接受Hive。 最佳答案 这取决于您想要哪种类型的数据分析和可视化。如果您打算使用专有工具,那么Tableau是其中之一options.如果您更喜欢开源工具(免费和多平台),那么您应该考虑使用:HUEBeeswaxHBasePigGoogleChartColorBrewerRQt/QMLOctaveOpenGLHive不会阻止您使用任何这些工具进行数据可视化,只要您知道如何操作您的数据以及如何使用相应的工具来分析/可视化您的数据。

python - 计算成对距离矩阵 : is a scalable, Python 中可用的大数据就绪方法?

我有一个包含项目特征值的CSV文件:每一行都是一个三元组(id_item、id_feature、值),表示特定项目的特定特征值。数据非常稀疏。我需要计算两个项目距离矩阵,一个使用Pearson相关作为度量,另一个使用Jaccard指数。目前我实现了一个内存解决方案,我做了这样的事情:importnumpyasnpfromnumpyimportgenfromtxtfromscipy.sparseimportcoo_matrixfromscipy.sparseimportcsr_matrixfromscipy.stats.statsimportpearsonrimportsklearn.m

hadoop - HBase 是否稳定且可用于生产?

对于已经在自己的集群上部署了HBase的人,您觉得它对于生产使用来说足够稳定吗?您遇到过哪些类型的麻烦或问题?我确实看到许多公司被列为在生产中使用HBase(http://wiki.apache.org/hadoop/Hbase/PoweredBy),但我很好奇是否需要大量维护、修补和演练来保持HBase集群的正常运行。 最佳答案 HBase即将通过HBase-0.20达到一个重要的里程碑。有一个alpha,很快就会成为RC。它有非常重大的性能改进。据报道,StumbleUpon为他们的网站提供了HBase的主干版本,没有额外的缓存

用于高可用性的 Hadoop 2.0 名称节点、辅助节点和检查点节点

读完ApacheHadoopdocumentation,在理解secondarynode&checkpointnode的职责上有一个小困惑我清楚Namenode的角色和职责:TheNameNodestoresmodificationstothefilesystemasalogappendedtoanativefilesystemfile,edits.WhenaNameNodestartsup,itreadsHDFSstatefromanimagefile,fsimage,andthenapplieseditsfromtheeditslogfile.ItthenwritesnewHDFS

hadoop - HDFS可用空间可用命令

是否有一个hdfs命令可以查看hdfs中的可用空间。我们可以通过浏览器在浏览器中的master:hdfsport看到它,但由于某种原因我无法访问它,我需要一些命令。我可以通过命令./bin/hadoopfs-du-h查看磁盘使用情况,但看不到可用空间。提前感谢您的回答。 最佳答案 试试这个:hdfsdfsadmin-report对于旧版本的Hadoop,试试这个:hadoopdfsadmin-report 关于hadoop-HDFS可用空间可用命令,我们在StackOverflow上找到